The ability to learn from human demonstration endows robots with the ability to automate various tasks. However, directly learning from human demonstration is challenging since the structure of the human hand can be very different from the desired robot gripper. In this work, we show that manipulation skills can be transferred from a human to a robot through the use of micro-evolutionary reinforcement learning, where a five-finger human dexterous hand robot gradually evolves into a commercial robot, while repeated interacting in a physics simulator to continuously update the policy that is first learned from human demonstration. To deal with the high dimensions of robot parameters, we propose an algorithm for multi-dimensional evolution path searching that allows joint optimization of both the robot evolution path and the policy. Through experiments on human object manipulation datasets, we show that our framework can efficiently transfer the expert human agent policy trained from human demonstrations in diverse modalities to target commercial robots.
translated by 谷歌翻译
自动设计虚拟人和类人动物在帮助游戏,电影和机器人中的角色创作过程中具有巨大的潜力。在某些情况下,角色创建者可能希望设计针对某些动作(例如空手道踢和跑酷跳跃)定制的类人体身体。在这项工作中,我们提出了一个人形设计框架,以自动生成以预先指定的人体运动为条件的身体有效的人形体。首先,我们学习了一个广义的类人动物控制器,该控制器在大型人体运动数据集上进行了训练,该数据集具有多样化的人体运动和身体形状。其次,我们使用设计与控制框架来优化类人动物的物理属性,以找到可以更好地模仿预先指定的人类运动序列的身体设计。我们的方法利用预先训练的类人动物控制器和物理模拟作为指导,能够发现经过定制以执行预先指定的人类运动的新类型类人体设计。
translated by 谷歌翻译
我们的目标是在新的成像条件下(例如,户外)在新的成像条件下(例如,在非常不同的条件下拍摄的图像(例如室内)时(室内),在新成像条件(例如室外)下(例如室外),在新的成像条件下(例如室外)进行分割的像素级掩盖的性能。在现实世界中,重要的是在各种成像条件下进行培训的模型都必须运行。但是,它们被现有标记的手数据集涵盖的变化是有限的。因此,有必要调整在标记的图像(源)上训练的模型,以使其具有看不见的成像条件的未标记图像(目标)。尽管已经为这两项任务开发了自我训练域的适应方法(即以自我监督的方式学习以自我监督的方式学习),但当目标图像的预测嘈杂时,它们的训练可能会降低性能。为了避免这种情况,至关重要的是,在自我训练过程中,为嘈杂的预测分配了较低的重要性(置信度)。在本文中,我们建议利用两个预测的差异来估计目标图像对这两个任务的信心。这些预测来自两个单独的网络,它们的差异有助于确定嘈杂的预测。为了将我们提出的信心估计纳入自我训练中,我们提出了一个教师学生的框架,在该框架中,两个网络(教师)为网络(学生)提供自我培训的监督,并通过知识蒸馏从学生那里学习教师。我们的实验表明,在具有不同照明,握住对象,背景和摄像机观点的适应设置中,其优于最先进的方法。与最新的对抗适应方法相比,我们的方法在HO3D上的多任务得分提高了4%。我们还验证了我们在室外成像条件下快速变化的Ego4d的方法。
translated by 谷歌翻译
机器人学习中流行的范式是为每个新机器人从头开始训练一项政策。这不仅效率低下,而且对于复杂的机器人而言通常不切实际。在这项工作中,我们考虑了将政策转移到具有显着不同参数(例如运动学和形态)的两个不同机器人中的问题。通过匹配动作或状态过渡分布(包括模仿学习方法)来训练新政策的现有方法,由于最佳动作和/或状态分布在不同的机器人中不匹配而失败。在本文中,我们提出了一种名为$ Revolver $的新方法,该方法使用连续进化模型用于物理模拟器中实现的机器人政策转移。我们通过找到机器人参数的连续进化变化,在源机器人和目标机器人之间进行了插值。源机器人的专家政策是通过逐渐发展为目标机器人的一系列中间机器人的训练来转移的。物理模拟器上的实验表明,所提出的连续进化模型可以有效地跨机器人转移策略,并在新机器人上实现卓越的样品效率。在稀疏的奖励环境中,提出的方法尤其有利,在稀疏奖励环境中,探索可以大大减少。代码在https://github.com/xingyul/revolver上发布。
translated by 谷歌翻译
操纵铰接对象通常需要多个机器人臂。使多个机器人武器能够在铰接物体上协作地完成操纵任务是一项挑战性。在本文中,我们呈现$ \ textbf {v-mao} $,这是一个学习铰接物体的多臂操纵的框架。我们的框架包括一个变分生成模型,可以为每个机器人臂的物体刚性零件学习接触点分布。从与模拟环境的交互获得训练信号,该模拟环境是通过规划和用于铰接对象的对象控制的新颖制定的新颖制定。我们在定制的Mujoco仿真环境中部署了我们的框架,并证明我们的框架在六种不同的对象和两个不同的机器人上实现了高成功率。我们还表明,生成建模可以有效地学习铰接物体上的接触点分布。
translated by 谷歌翻译
理解手对象交互的关键组成部分是识别活动对象的能力 - 由人类手动操纵的对象。为了准确定位活动对象,任何方法都必须使用由每个图像像素编码的信息,例如它是否属于手,对象或背景。要利用每个像素作为确定活动对象的边界框的证据,我们提出了一种像素明智的投票功能。我们的Pixel-Wise投票函数将初始边界框作为输入,并生成作为输出的活动对象的改进边界框。投票函数设计成使得输入边界盒内部的每个像素用于改进的边界框,并且选择具有大多数投票的框作为输出。我们调用了在投票函数中生成的边界框的集合,关键框字段,因为它表征了与当前边界框中的关系定义的边界框的字段。虽然我们的投票功能能够改进活动对象的边界框,但一轮投票通常不足以准确地本地化活动对象。因此,我们反复应用投票函数来顺序地改善边界框的位置。然而,由于已知重复应用一步预测器(即,使用我们的投票函数的自动回归处理)可以导致数据分配换档,我们使用强化学习(RL)缓解此问题。我们采用标准RL来学习投票功能参数,并表明它通过标准的监督学习方法提供了有意义的改进。我们在两个大型数据集上执行实验:100欧元和麦克巴诺,分别在最先进的情况下提高8%和30%的AP50性能。
translated by 谷歌翻译
无参考图像质量评估(NR-IQA)的目标是根据主观评估来估计感知图像质量,由于不存在原始参考图像,它是复杂和未解决的问题。在本文中,我们提出了一种新颖的模型来解决NR-IQA任务,利用卷积神经网络(CNNS)和变压器中的自我关注机制来解决来自输入图像的本地和非局部特征的混合方法来解决NR-IQA任务。我们通过CNN捕获图像的局部结构信息,然后避免提取的CNNS特征之间的局部偏压并获得图像的非本地表示,我们利用所提取的特征上的变压器,其中我们将它们塑造为顺序输入变压器模型。此外,为了改善主观和目标分数之间的单调性相关性,我们利用每个批处理内图像之间的相对距离信息,并强制执行它们之间的相对排名。最后但并非最不重要的是,我们观察到NR-IQA模型的性能在我们应用于输入到输入时申请等级变换(例如水平翻转)。因此,我们提出了一种利用自我保持性作为自我监督来源的方法,以改善NRIQA模型的鲁棒性。具体而言,我们为每个图像的质量评估模型的输出和其转换(水平翻转)强制实施自我一致性,以利用丰富的自我监控信息,并降低模型的不确定性。为了展示我们工作的有效性,我们在七个标准IQA数据集(合成和真实)上评估它,并显示我们的模型在各种数据集上实现最先进的结果。
translated by 谷歌翻译
我们提出了体面意识的人类姿势估计,我们根据模拟代理的本体感受和场景意识以及外部第三人称观察来估计3D构成。与经常诉诸多阶段优化的先前方法不同,非因果推理和复杂的接触建模以估计人类姿势和人类场景的相互作用,我们的方法是一个阶段,因果关系,并在模拟环境中恢复全局3D人类姿势。由于2D第三人称观察与相机姿势结合在一起,我们建议解开相机姿势,并使用在全球坐标框架中定义的多步投影梯度作为我们体现的代理的运动提示。利用物理模拟和预先的场景(例如3D网格),我们在日常环境(库,办公室,卧室等)中模拟代理,并为我们的代理配备环境传感器,以智能导航和与场景的几何形状进行智能导航和互动。我们的方法还仅依靠2D关键点,并且可以在来自流行人类运动数据库的合成数据集上进行培训。为了评估,我们使用流行的H36M和Prox数据集,并首次在具有挑战性的Prox数据集中获得96.7%的成功率,而无需使用Prox运动序列进行培训。
translated by 谷歌翻译
抽象的。目的:本文提出了一种用于产生虚拟术中CT扫描的方案,以改善内窥镜窦手术(ESS)的手术完整性。方法:该工作呈现三种方法,基于尖端运动,基于尖端轨迹的基于仪器,以及基于仪器,以及虚拟术中CT生成的非参数平滑和高斯过程回归。结果:所提出的方法研究,并在尸体上进行的ESS进行了比较。外科结果表明,所有三种方法都改善了骰子相似系数> 86%,F分数> 92%和精度> 89.91%。发现基于尖端轨迹的方法具有最佳性能,并在外科完整性评估中获得了96.87%的精度。结论:这项工作表明,虚拟术中CT扫描改善了实际手术场景与参考模型之间的一致性,并提高了ESS中的手术完整性。与实际的术中CT扫描相比,该方案对现有的外科议定书没有影响,不需要除了最多的ESS中已经提供的额外硬件克服了高成本,重复辐射和由实际术中引起的细长麻醉CTS,并在ESS中实用。
translated by 谷歌翻译
我们提出了一种从动态摄像机记录的单像素视频中恢复的3D全局人体网格恢复方法。即使在镜头的视野之外,我们的方法也适于严重和长期闭塞,并使人体追踪人体。为实现这一目标,我们首先提出了一种深入的生成运动infiller,该infill是基于可见运动的自向填充遮挡人体的身体运动。另外,与事先工作相比,我们的方法即使用动态摄像机也将在一致的全局坐标中重建人体网格。由于人类动作和相机姿势的联合重建是受到的,我们提出了一种全球轨迹预测因素,以基于当地机身运动产生全球人类轨迹。使用预测的轨迹作为锚点,我们介绍了一种全局优化框架,它可以改进预测的轨迹,并优化相机姿势以匹配诸如2D关键点之类的视频证据。具有动态摄像机的挑战性挑战和野外数据集的实验表明,在运动缺陷和全局网格恢复方面,所提出的方法显着优于现有方法。
translated by 谷歌翻译